查看原文
其他

智能文本信息抽取算法的进阶与应用

CSDN APP Python大本营 2019-07-10



一、什么是文本挖掘?

 

讨论文本挖掘之前,我们要先说一下数据挖掘的概念,因为文本挖掘是数据挖掘的一个分支。数据挖掘(Data Mining)指从大量的数据中通过算法搜索隐藏在其中信息的过程。而文本挖掘就是从文本数据中获取有价值的信息和知识的过程,最基本的应用就是实现文本的分类和聚类。

 

二、文本挖掘有什么用?

它和 NLP 有关系吗?

 

也许有人会疑惑,文本挖掘和 NLP 领域有关系吗?这是必然的!

 

文本挖掘最基本的应用是文本(文档)的分类、聚类与相似度、信息检索与信息抽取;同时,文本挖掘在文本摘要生成、自动问答等任务中也有所应用,而这些任务也是 NLP 的主要任务。可见,文本挖掘虽然和 NLP、知识图谱等属于不同的研究方向,但是在技术应用中,很多借鉴与融合之处。文本挖掘涉及很多自然语言处理的模块,同时它也应用于 NLP 领域中多个任务中,利用自然语言处理技术,自动化处理海量文本数据,提升文字处理效率与挖掘深度。

 

那么,文本挖掘主要的方法有哪些?在工程中又是如何运用这些方法的?



(扫码回复“文本挖掘”,获取更多课程信息)

 

三、工程中,文本挖掘怎么做?有哪些方法?

 

或许有些方法大家有所接触,比如:关键词提取的方法,词频统计与 TF-IDF;用于潜在关系、主题的 LDA 主题建模;上面提到的文本分类工作就可以用统计学习和机器学习的算法实现;文本聚类则是一种无监督机器学习方法;到深度学习时代,深度学习方法自然被运用在文本挖掘中。

 

不过,从早期的方法、传统机器学习方法到深度学习方法,这么多方法,我们要怎么梳理清他们彼此之间的逻辑?在实际工程中,又是如何运用这些方法的?传统方法和深度学习方法独立运行时发挥哪些作用?什么情况需要把两种方法结合提升效果?

 

四、文本挖掘怎么学?要掌握哪些必备技能和工具?

 

刚入门或者想学习这方面的小伙伴们来说,要如何学习文本挖掘?

正在在这个领域中学习,以后要从事相关工作时,企业需要哪方面的技能?

 

我们为你准备了... ...

 

《文本挖掘——智能文本信息抽取算法的进阶与应用》主题公开课,这次为大家邀请到达观数据的高翔老师,带领大家深入工程中的文本挖掘的信息抽取算法,他还将带领团队中专门负责传统机器学习、深度学习的小伙伴们为大家逐一攻破你们关心的算法与技术!

 

课程信息

 

  • 主题:智能文本信息抽取算法的进阶与应用

  • 时间:7 月 11 日 晚 8 点--9 点半

  • 主讲人:高翔,达观数据联合创始人、文本挖掘组总负责人

 

主题介绍:

 

信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。文本信息抽取是信息检索、智能问答、智能对话等人工智能应用的重要基础,它可以克服自然语言非形式化、不确定性等问题,发掘并捕获其中蕴含的有价值信息,进而用于文档智能审核、知识库及知识图谱构建、流程自动化等方面,对产业界有着重要的实用意义。

 

课程大纲:

 


1.文本挖掘简介和抽取算法概况

2.传统抽取算法原理及案例:HMM、CRF(重点)

3.基于深度学习的抽取算法原理及案例:双向LSTM、预训练模型(重点)

4.抽取算法在达观数据的应用实践

5.进阶资源推荐

 

适合人群:

 

1、任何对 AI 感兴趣的小伙伴们;

2、任何对 NLP 感兴趣,学习或从业于 NLP 领域

3、对文本挖掘技术有兴趣,想了解其在工业界的应用

 

讲师介绍:

 

高翔,达观数据联合创始人,自然语言处理技术专家,上海交通大学通信专业硕士,上海交通大学校友会AI分会副秘书长,复旦大学校外研究生导师。曾代表达观数据赢得2016青年互联网创业大赛全国总冠军、2018阿里巴巴诸神之战创客大赛全球总决赛三等奖,2019年度入选上海市青年科技启明星人才计划。曾就职于腾讯文学,盛大文学,盛大创新院,负责搜索引擎、文本挖掘及大数据调度系统的开发工作,在自然语言处理和机器学习等技术方向有着丰富的理论与工程经验。


2019 年已经进入下半年,AI科技大本营特此为大家准备一系列专业、深度的 AI公开课。我们策划了技术主题涵盖机器学习、深度学习与前沿、计算机视觉、语音与NLP、知识图谱等 AI 的各方向,此外还会开设求职面试、经验分享等主题,你想听的内容也可以告诉我们!几十节公开课大礼包,等你来学习,还有学习奖品等你来领~

 


更多课程学习信息,可扫描下方小助手二维码,回复:文本挖掘,加入公开课交流群,领取福利~

 

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存